.

1 Introduction

Airbnb est une société américaine de location de vacances en ligne basée à San Francisco, en Californie. Airbnb maintient et héberge une “place de marché”, accessible aux consommateurs sur son site web ou via une application. Grâce à ce service, les utilisateurs peuvent organiser des hébergements, principalement des séjours en famille d’accueil, et des expériences touristiques, mais encore répertorier leurs propriétés à louer. Airbnb ne possède aucune des propriétés répertoriées ; au contraire, elle tire profit de la commission qu’elle perçoit sur chaque réservation. La société a été fondée en 2008 par Brian Chesky, Nathan Blecharczyk et Joe Gebbia. Airbnb est une version abrégée de son nom original, AirBedandBreakfast.com.

L’objectif principal de ce projet d’open DATA est de croiser différentes bases de données, c’est-à-dire les mettre en relation afin d’être capable d’en tirer de nouvelles informations. Nous voulons, à travers ce travail, d’une part comprendre dans son intégralité la façon dont le prix d’un bien est obtenus. D’autre part nous voulons, à l’aide des commentaires clients sur leurs séjours, comprendre si la notes associé au biens Airbnb refletent correctement le sentiment du locataire. Pour ce faire, nous utiliserons donc plusieurs bases de données, nous disposons du détail des offres Airbnb disponibles dans les villes françaises de la région Bordelaise. Ensuite nous disposons de la base de données regroupant le prix du marché immobilier où nous nous concentrerons particulièrement sur le marché locatif. Nous avons également à disposition la base de données des réservations des bien Airbnb pour l’année 2021, et enfin nous avons une grosse base de données regroupant une multitude d’avis client sur les biens Airbnb.

Dans un premier temps nous voudrions être capable de découvrir quels sont les facteurs qui influencent le prix de la nuit d’une réservation Airbnb. Nous regarderons attentivement l’ensemble des variables qui influent sur le prix de la location. Nous nous attendons à ce que la position géographique, le quartier, le type de chambre ou de logement, le nombre de salles de bains, la notation des clients soient de puissants prédicteurs. Dans un second temps, nous voulons proposer un outil de visualisation simple et intuitive qui permettrait de mettre en relation nos bases de données et de comprendre les liens entre marché locatif et reservation Airbnb, cet outil se présentera sous forme d’une carte interactive. Nous pourrions ainsi détecter au mieux certains biens Airbnb dit “hors du marché”, on retrouverait par exemple les biens d’exceptions. Ce travail nous permettrait peu d’être de mettre en relation les différents quartiers et les caractéristiques des consommateurs qui réservent. De plus, nous allons nous concentrer sur le titre du bien airbnb proposée par le propriétaire. En effet, cette information est une des clefs pour comprendre la représentativité des biens disponibles. Dans cette section nous utiliserons des méthodes et outils de traitement du language pour en tirer des informations pertinentes. Enfin, nous utiliserons notre jeu de données regroupant l’ensemble des avis clients sur les biens loués, afin d’en extraire l’idée, le sentiment général, celui qui reste en tête. Cette dernière analyse, faisant également appel aux notions de traitement de language, nous permettra de connaitre le type de biens qui fonctionne à travers une analyse sentimental des commentaire client.

2 Quelques stats descriptives pour de l’analyse

2.1 Premiers pas… les données

Airbnb, comme beaucoup d’autre web service, tient à ce que ses données restent privées et elle ne permet pas aux internautes d’accéder à leurs données en Opendata. Toutefois, Murray Cox, un photojournaliste australien, est parvenu à rendre certaines données de la plateforme en libre accès. Ainsi, par le biais de son site insideAirbnb, ce dernier permet l’accès à de larges tables de données concernant une quarantaine de villes dans le monde. Une telle alternative est appréciée par la communauté des data scientists et permet alors de mieux comprendre comment se comporte le phénomène Airbnb au sein même d’une ville mais également sur le plan international. Nous nous intéressons exclusivement aux données de la ville de Bordeaux, à partir du jeu de données brutes, contenant 10 562 observations, nous sélectionnons les variables qui nous semble utile dans cette première analyse et pour expliquer le prix. Nous avons selectioné ces variables :

  • price: C’est le prix du biens Airbnb pour une nuit, ici notre variable cible.
  • latitude and longitude: C’est l’infortmation géographique du biens Airbnb.
  • neighbourhood_cleansed: C’est le nom du quartier où se trouve le biens Airbnb.
  • neighbourhood_group_cleansed : C’est le nom de la ville où es trouve le biens Airbnb.
  • room_type: C’est le type du biens Airbnb : Entire home/apt, Private room and Shared room
  • accommodates: C’est le nombre de personnes que le biens Airbnb peut recevoir.
  • beds: C’est le nombre de couchage du biens Airbnb.
  • review_scores_rating: C’est la note moyenne du biens Airbnb donnée par les locataires.
  • amentities: Ce sont l’ensemble des comoditées du biens Airbnb

Nous avons utilisé par la suite une base de données contenant le prix des loyer par ville et par quartier. L’objetcif avec cette base de données est de mettre en relation le marché locatif et le marché des biens Airbnb. Elle est cosntitué comme suit :

  • Un fichier au format .csv : Ce fichier fourni les statistiques sur le niveau des loyers du parc locatif privé. Elles sont fournies à l’échelle de l’agglomération, de différentes zones géographiques plus fines ainsi qu’à l’échelle de la ville centre et de sa périphérie (pour certaines agglomérations).
  • Des fichiers KML permettent d’afficher sur une carte à partir d’un logiciel de SIG les contours du périmètre d’observation.

Enfin, la derniere partie de notre projet s’interressera aux commentaires de tous les locataires de l’année 2019 à l’année 2020. Nos variables d’interet seront donc :

  • listing_id : identifiant qui nous permet de faire le lien entre les commentaires et les caractéristiques du bien loué
  • date : la date des commentaires
  • comments : les commentaires des locataires
  • reviewer_name : Prénom du locataire

2.2 Fréquence et distribution

Les analyses descriptives sont les premières manipulations à effectuées dans une étude quantitative, leur objectif principal est de résumer et d’explorer le comportement des données impliquées dans l’étude. En utilisant des techniques statistiques telles que la distribution des fréquences, les mesures de tendance et les mesures de dispersion, nous pouvons mieux comprendre la façon dont les phénomènes étudiés se comportent.

Il faut tout d’abord s’occuper de nettoyer notre jeu de données. Pour les variables catégorielles dites “simple” telles que le quartier, la ville, le nombre de couchage, …, ne nécessite pas de traitement particulier. En revanche il faut s’assurer que les valeurs extrêmes n’affectent pas nos résultats, nous gérons égalementlesvaleurs manquantes en supprimant les biens trop affectés par des valeurs manquantes. Premièrement, nous nous concentrons sur la répartitions des biens Airbnb en fonction de la ville.

##            Frequency   Percent
## Bordeaux        6796 64.343874
## Merignac         536  5.074796
## Talence          463  4.383639
## Pessac           407  3.853437
## Bgles            348  3.294831
## Le Bouscat       297  2.811967

Nous remarquons directement, au vu des résultats et de façon logique, que la grande majorité des biens Airbnb (près de 65% des biens) se trouve dans la ville de Bordeaux. Les villes avec le plus grand nombre de biens sont ensuite, Mérignac, avec près de 5% des biens Airbnb, grande ville avec l’aéroport de la zone, ce qui justifie grandement ce resultat. Talence, avec près de 4,4% des biens Airbnb, une grande ville connu pour sa grande activité étudiante principalement.

Pour obtenir des résutats plus parlant, nous proposons une representation par quartier et non plus par ville. Ce point de vu nous permet alors que comprendre mieux comment sont répartie les biens au sein de la ville centre qui est Bordeaux. Ci-dessous le graphe représantant le top 10 des quartiers/zones les plus représentées sur Airbnb.

Comme attendu, le fait de regarder par quartier de façon plus precise nous permet de savoir comment sont répartie les biens, principalement dans la ville de Bordeaux. Il en ressort la très fortes activité du centre ville de Bordeaux, avec près de 18% des biens. Le sud de Bordeaux est également tres important avec pres de 15% des biens Airbnb. Nous retrouvopns ensuite des quartiers comme celui des Chartrons - Grand Parc - Jardin Public, Nasouty, Bordeaux Maritime, regroupant entre 5et 10% des biens Airbnb. Pour mieux voir et comprendre ce qui se designe derrière cette distributions, nous representons un top 10 des quartiers les plus présent sur le site Airbnb.

Parlons prix, c’est le nerf de la guerre puisque qu’il agrège à lui seul toutes les caractéristiques du biens et permet au client de faire son choix en fonction de son budget. C’est l’élément le plus essentiel sur un site de location de biens puisqu’il est capable de déclencher une reservation. Concernant sa distribution des prix, nous tracons l’histogramme des prix pour l’ensemble des biens considérés.

En tracant la répartition des prix, nous remarquons une forte amplitude sur les prix, avec une enorme concentration pour les prix entre 0 et 250 euros la nuit. Nous nous rendons bien compte que les biens d’exeption influent complètement sur ce type de graphe avec des prix par nuit explosant pour atteindre pres de 8000 euros la nuit. Comme la distribution originale est très asymétrique, la transformation logarithmique peut être utilisée pour obtenir un meilleur aperçu des données.

Nous obtenons alors une meilleure distribution avec un prix moyen de 90 euros, notons que même avec cette transformation, la quasi-totalitées des biens se trouvent dans une même tranche de prix. Ce résultat reste rassurant car une location se trouvera toujours dans une même tranche de prix, avec des biens exceptionnels bien plus chère mais en très petites quantités.

3 Étude complète sur la constitution d’un prix

Le prix est, comme nous l’avons dit, la variable cible, il est important de pousser l’analyse plus loin, nous nous sommes donc intérogé sur les variables autres que le prix dans le listing de nos biens Airbnb pour comprendre au mieux ce qui impact significativement le prix. Pour ce faire nous représentons l’importance des variables dans notre modèle en utilisant une forêt aléatoire. Les paramètres choisissent son standard avec un nombre de 500 arbres et un mtry de 2. Notons qu’un découpage apprentissage/teste a également été effectué.

.

A l’aide du package RandomForest, nous sommes en mesure d’afficher un tel graphe qui nous indique, pour notre modèle, que le prix est principalement impacté par le nombre de personnes qu’il peut acceuillir. Ce resultats est tout à fait cohérent voir évident, plus le logement permet d’acceuilir de personnes, plus il est cher. Dans ce sens, on a aussi le nombre de couchage disponible qui fait grimper le pric de façon significative. Bien évidement, la localisation exacte ainsi que le quartier et la ville à aussi un gros impacte sur le prix. Enfin, les commodités, le type de biens et le score donné par les usagers sont des élemetns important dans la constitution du prix de la nuité.

3.1 Prix en fonction de la localisation, du quartier

Dans cette section, et pour faire echos à ce que nous avons vu juste precédement, nous allons voir le lien entre le prix du biens Airbnb et sa localisation, c’est à dire de à la longitude et latitidue du biens considéré, mais également de son quartier. Cette analyse nous permettra d’obtenir des réponses intéressantes, telles que “Quels sont les 10 quartiers les plus chers à réserver sur airbnb ?”, “Quels sont les 10 quartiers les moins chers à réserver sur airbnb ?”, “Quels sont les 10 quartiers/villes adjacentes les plus reservées sur airbnb?”. Tout cela avec des graphiques très attrayants et informatifs que nous allons voir par la suite.

Le graphe ci-dessus nous indique le top 10 des quartiers ayant à la fois les prix de réservation les plus chères de la région mais également les moins chères.Lorsque l’on observe le top 10 des quartiers les plus chères, nous pouvons nous pencher sur les quartiers tels que Toctoucau, le Monteil et Bouliac. Pour comprendre ce qui caractérise ces quartiers chers, il est important de les étudier à l’aide de données démographiques.

  • Toctoucau, avec un prix moyen par nuit de 169 euros, est un quartier de la commune de Pessac (33600). Ce quartier, au paysage verdoyant et à l’ambiance calme, abrite 2585 habitants qui ont une moyenne d’âge de 39 ans, ont des revenus confortables, vivent majoritairement en famille, et sont principalement propriétaires de leur logement.

  • Le Monteil, avec un prix moyen par nuit de 167 euros, est un quartier de la commune de Pessac (33600). Ce quartier, au paysage urbain et à l’ambiance animée, abrite 3262 habitants qui ont une moyenne d’âge de 40 ans, ont des revenus confortables, vivent majoritairement en célibataire, et sont principalement locataires de leur logement. Le quartier dispose, aux alentours, de divers services et infrastructures de transport, de commerce, de loisir, de culture, de santé, d’éducation.

  • Bouliac quant à elle, avec un prix moyen par nuit de 168 euros, est une commune calme du département de la Gironde (33270). Les 3040 habitants sont en majorité des couples et célibataires. Ils sont plutôt propriétaires de leur logement (64 %) et ont des revenus aisés (41100 euros par ménage).

De cette analyse il en ressort de façons cohérentes que ces quartiers sont des zones où le confort est bon, avec un nombre d’habitants raisonnables autour des 3000 personnes. Les infrastructures de santé ou d’éducation y sont particulièrement bien représenté ce qui favorise une population aisée. De plus, il est intéressant de noter que pour quasiment tous les quartiers de ce top 10, les espaces sont grands, dans cette optique, les biens mis à disposition des utilisateurs Airbnb sont pour la grande majorité des maisons avec de grande et belle superficie. Nous comprenons alors bien comment ces quartiers se retrouvent avec des prix moyens les plus élevés.

Pour les quartiers les plus accessibles, nous pouvons réaliser le même travail pour essayer d’expliquer ces prix à partir de données démographiques. Concentrons-nous sur les quartiers de la Saige, le quartier de Beaudésert et enfin le quartier du Burck.

  • Saige est une zone industrielle de la commune de Pessac (33600). Les 5130 habitants sont en majorité des couples et célibataires. Ils sont très jeunes, locataires de leur logement (83 %) et ont des très petits revenus (19400 euros par ménage). Il y a de très nombreux HLM (63 %).

  • Le Burck est un quartier de la commune de Mérignac (33700). Ce quartier, au paysage verdoyant et à l’ambiance calme, abrite 1833 habitants qui ont une moyenne d’âge de 36 ans, ont des revenus modérés, vivent majoritairement en célibataire, et sont principalement locataires de leur logement. Le quartier dispose, aux alentours, de divers services et infrastructures de transport, de sport, de loisir, de culture, d’éducation.

  • Beaudésert est un quartier de 2 560 habitants de la ville de Mérignac dont 70 % des habitants sont locataires. Beaudésert est un quartier calme avec 57 % d’appartements et 43 % de maisons. Il y a 50 commerces de proximité dont des commerces, des restaurants et un supermarché.

Là encore, il ressort de cette analyse de façon cohérente que ce sont des zones où le confort est moins présent. Bien que nombres d’habitants sont similaires, il y a bien plus d’appartement et de personne en situation de location, avec des situations plus précaires, ce sont des espaces plus petits où la vie est agréable certes, mais avec une concentration de gens avec des revenus plus faibles. De la même façon qu’avec les quartiers riches, le prix des Airbnb est directement impacté par le contexte démographique qui définit la zone.

En somme, ce qui semble impacter de façon très significative le prix des Airbnb est d’un part la qualité du bien proposé. En effet plus un bien dispose de grands espaces plus il sera chere, mais pour un bien de même superficie, le contexte démographique sera toujours un critère déterminant. Ces analyses restent très cohérentes puisque dans le cadre d’une location Airbnb, on imagine aisément que le choix du quartier est un critère prépondérant pour les clients qui souhaite passer un agréable moment dans les lieux, mais également aux alentours.

Pour mieux examiner la disparité au niveau des prix des logements nous allons créer une nouvelle variable catégorielle qui nous permettra de différencier les biens en quatre sections : Lowcost, Standard, Haute-gamme et luxe. Nous observons donc une répartition assez équitable au niveau des différentes catégories de prix de location.

Dès lors, avec cette nouvelle variable, nous pouvons par exemple regarder l’action de ces catégories de prix sur les différents quartiers et villes, notamment sur les villes de nos tops 10. Nous allons donc voir, pour chacune des villes top 10 des plus chères et les tops 10 des villes les moins chères, comment se décompensent les distributions en fonction de cette catégorie qualitative artificielle. Nous obtenons ce graphe ci-dessous.

Pour les quartiers les plus chères, nous voyons donc, pour chaque ville, des parts très importantes pour les biens de catégorie luxe et haut de gamme. En proportion dans ces villes, nous voyons bien que la part des biens de catégorie low-cost est la plus faible en proportions. De la même façon, avec le graphe pour les 10 villes les moins chères du secteur, nous observation cette fois-ci que pour toutes ces villes, les majorités des biens sont de classe low-cost et Standard. De façon très claire, la catégorie des biens airbnb classé en luxe ne sont absolument pas représentés.

Il est important de noter que l’ensemble des résultats obtenus ici sont concordants avec les données démographiques de ces villes. Enfin, nous notons que malgré les fortes inégalités de distribution pour le standing des biens airbnb au sein des différentes villes, les villes où quartiers chers ne sont pas neccesserement les plus fréquentés par les clients d’airbnb. Pour appuyer ses dires, nous représentons la catégorie des logements en fonction des villes en moyenne les plus louées.

En effet Bordeaux est effectivement l’attraction principale sur airbnb, effectivement ce n’est bel et bien une grande et belle ville touristique de France, donc aucune surprise. Il en découle aussi qu’elle est assez chère comparativement aux villes. Notons que pour la ville de Bordeaux dans son ensemble, toutes les catégories de biens semblent être représenté de la même manière. C’est un résultat qui s’explique encore grace aux données démographiques car Bordeaux regroupe des habitants de toute revenue et avec des biens de toutes qualités.

Enfin, nous proposons une visualisation graphique et interactive du prix des biens Airbnb sur une map. À noter que l’échelle a été adaptée afin d’être plus détaillée dans les niveaux de prix par nuits qui regroupent la quasi-totalité des Airbnb.

3.2 Prix en fonction du type de biens et capacité d’accueille

L’asymétrie au niveau des prix se retrouve encore une fois ici, Pour régler ce souci nous nous permettons de ne regarder que les biens Airbnb avec un pari par nuit inférieure à 1000 euros, les biens exceptionnels étant très rares en proportion, nous les occultons pour avoir un graphe plus lisible. Ci-dessous la représentation des distributions de prix en fonction du type de biens.

Sans grande surprise on se rend bien compte ce que les Chambres partagées et les chambres privées sont les biens les moins onéreux, contrairement aux chambres d’hôtels et aux biens complets qui sont bien plusieurs chere en moyenne. Cependant les soucis de distribution ne nous permment pas de voir clairement les informations, en complément, nous traçons donc également le prix des biens Airbnb en fonction du type de biens avec la transformation logarithmique.

Après avoir effectué cette transformation, nous voyons que les biens les plus accessibles sont les chambres partagées, suivis par les chambres privées puis on y retrouve le gros des biens Airbnb qui sont les appartements et maison entière. Enfin, et de façon plutôt cohérente, ce sont les chambres d’hôtels qui sont les plus chere, ce prix fort est certainement des services annexes proposés par les hôtels. En mettant en relationo les différentes catégories de prix créent et les types de logements nous observons la domination sans failles des logements “Entier/appartement” comparé aux autres types de logements suivis des “chambres privées” et à la traine les “chambres partagées” et “chambres d’hôtels”.

Maintenant, nous traçons le graphe des catégories de prix en fonction du type de logements existant.

Les catégories de prix confirment l’analyse précédente, nous pouvons effectivement bien le distinguer sur la deuxième figure, qui est juste un zoom de la première figure. En effet les hôtels et logement entier/appartement sont souvent très chères (domination des catégories “luxe” et “Haute gamme”) tandis que les “chambres partagées” et les “chambres privées” sont moins chères (domination des catégories “Low-cost” et “Standard”).

Nous pouvons également voir si le prix des biens Airbnb est en relation direct avec le nombre de personnes qu’il peut accueillir, ce qui est tout à fait logique.

De façon naturelle et très intuitive, plus le bien Airbnb est capable d’accueillir de personnes, plus le prix du bien est élevé. Nous pouvons même déduire une relation purement linéaire entre capacités d’accueil et prix. De plus, nous remarquons que quand le nombre de personnes louant un airbnb est inférieure 3 la catégorie dominante des biens est le “low-cost” et dès que le nombre apparaît supérieur à 4 la catégorie dominante et “luxe”. Tout simplement car un grand appartement coutera plus chère et accueillera plus de personnes. Le prix est en corrélation directe avec la capacité d’accueil.

3.3 Prix en fonction des commodités

Nous avons été très intérrésé de voir que bien pour chacun Airbnb, nous avons à disposition une liste non-non exaustivedes commiditées présentes dans les biens proposés. Nous nous sommes alors posé la question de savoir si, d’une part, les commodités présentes dans les biens impactent le prix de la nuit, d’autre part, de quelle façon et avec quelle importance ce prix est affecté.

Nous imaginons aisément que plus bien le Airbnb dispose de “fonctionnalités”, de commodités, ou en tout cas d’atout énoncé dans l’annonce Airbnb, plus le prix sera haut. De par cette première analyse textuelle, nous nous rendons bien compte que les critères tels qu’une terrasse, un parking, le fait d’avoir internet et bien dautre impacte le prix de façon significative.

3.4 Modélisation statistique pour la variable prix

Dans cette partie notre but serait de modéliser les catégories de prix en fonction de nos différentes variables explicatives. Dans un premier temps nous essayer de modéliser toutes les catégories à l’aide d’une régression logistique multinomiale et enfin nous allons nous focaliser sur les deux catégories extrêmes, i.e “Low-cost” et “luxe”.

3.4.1 Avec toutes les catégories de prix

La régression logistique multinomiale ne nous donne cependant pas une erreur teste de prédiction satisfaisante, i.e 45%. Cependant nous avons pu, à l’aide du modèle créé, effectuer une sélection à pas descendant ce qui nous à permi grace au critère AIC de sélectionner les variables que sont : “neighbourhood_group_cleansed, beds+review_scores_rating,room_type,accommodates”

3.4.2 Avec les biens de catégories low-cost et luxe

Cette partie concerne en effet l’analyse des deux opposés. À travers une régression logistique binaire nous avons pu modéliser à niveau correct notre modèle. Nous obtenons après une régression logistique basique un score de bonne prédiction d’environ 92%. Cependant nous pouvons tenter d’augmenter ce score en utilisant soit une matrice de cout, soit des algorithmes stochastiques.

3.4.3 Création d’une nouvelle variable d’interet

Passons ensuite à la création d’une variable d’intérêt en utilisant des critères performances ce qui équivaudrait à la revenue minimale engendrée par l’hôte d’un appartement airbnb.Pour la création de notre nouvelle variable on va utiliser les variables :

  • nombre de location du bien
  • nombre de nuits minimums et
  • prix par nuits

Et on nommera la nouvelle variable réponse total minimum revenue = [nombre de visites] x [prix] x [nombre de nuits minimum] ce qui correspond à l’entrée d’argent minimum perçue pour un logement.

Nous allons ensuite essayer avec des modèles de machine learning se voir ce qui caractérise notre nouvelle variable notamment à Bordeaux.

##  [1] "id"                             "beds"                          
##  [3] "review_scores_rating"           "accommodates"                  
##  [5] "name"                           "host_id"                       
##  [7] "host_name"                      "neighbourhood_group"           
##  [9] "neighbourhood"                  "latitude"                      
## [11] "longitude"                      "room_type"                     
## [13] "price"                          "minimum_nights"                
## [15] "number_of_reviews"              "last_review"                   
## [17] "reviews_per_month"              "calculated_host_listings_count"
## [19] "availability_365"               "Log1pPrice"                    
## [21] "price_group"                    "price_distri"                  
## [23] "total_min_revenue"
##                    (Intercept) calculated_host_listings_count 
##                  105.515009791                   -0.006430446 
##              number_of_reviews               availability_365 
##                    0.016310446                    0.001015881 
##            price_groupLow-cost                price_groupLuxe 
##                   -0.592886156                    0.498815331 
##            price_groupStandard                           beds 
##                   -0.377297241                    0.046042681 
##            room_typeHotel room          room_typePrivate room 
##                   -0.790644585                   -0.423840033 
##           room_typeShared room                   accommodates 
##                   -0.673881395                    0.072422401 
##           review_scores_rating                       latitude 
##                    0.020926190                   -2.247327845

Finalement notre modèle a un \(R^2\) dee 0.47 et un RMSE de 187703. Alors notre modèle est décalé d’environ 187703 dollars par prévision en moyenne. Nous n’allons donc guère sélectionner ce modèle, par manque de sa précision mais il serait utile pour obtenir une liste de variables importantes pour notre variable réponse.

Nous remarquons bien que pour avoir plus de revenues il faut avoir un nombre conséquent de commentaires ce qui est totalement logique car plus l’hôte à des commentaires au plus positif plus le “loueurs” se sentira en sécurité et confiant de pouvoir louer ce bien.

4 Etude des liens avec le marché locatif

Bordeaux est la meilleure ville dans plusieurs domaines notamment le travail, tourisme, immobilier, restauration, circulation…Sur le premier semestre 2018, l’observatoire de l’immobilier LPI-Se Loger a désigné Bordeaux comme la ville la plus chère de province. À la faveur d’une nouvelle hausse des prix de 3,1 % sur le dernier trimestre, et de 15,4 % sur un an, Bordeaux reste la ville où les prix de l’immobilier sont les plus élevés en province, selon la dernière note de l’observatoire des prix immobiliers LPI-Se Loger. À 4 652 euros /m2, Bordeaux détrône en effet Lyon (4 530 euros), comme le rapportent 20 minutes. D’année en année ces chiffres ne font que grimper ainsi nous le constatons sur l’image suivante. Bordeaux est aussi la ville qui enregistre la plus forte hausse sur un an, encore devant Lyon (+ 10,3 %) et Angers (+ 7,7 %).

.

Nous avons donc recueilli les données de l’observatoire dans le but de les mettre en relation avec nos données airbnb. Voici ci-dessous la carte de Bordeaux avec les différentes zones de prix du loyer mensuel au \(m^2\).

Sur cette carte, nous remarquons très bien le phénomene de “centre ville”, qui signifie que lorsque l’on se raproche du coeur de l’activité au sein d’une grande ville, les loyer augmente de façon significative. Nous voyons tres bien la concentration elevé de zones a 13euros/m2 au centre de Bordeaux. Plus nous nous elloignons du centre, plus le prix au metre carré en location diminue.

Dès lors, il est intérrésant d’afficher en superposition tous les logements airbnb à disposition pour deceler ou non un liens entre prix du marché locatif et les prix des biens Airbnb. C’est ce qui est fait sur la map intéractive ci-dessous.

De très nombreuses informations peuvent être tirées de cette map. D’une part, comme nous l’avons énoncé précédemment, une grande majorité des biens airbnb se trouve en réalité dans un prix plutôt similaire autour de 50 et 100 euros la nuit. D’autre part, aucun schéma ne semble apparaitre quant à l’ajout des points représentant les biens Airbnb. En effet toutes les catégories de prix semblent être représenté dans toutes les zones.

En zoomant par exemple sur la zone de Bordeaux centre, où le prix des loyers est très haut, nous voyons que les biens Airbnb existant ne sont absolument pas tous des biens avec des prix chère. en réalité nous nous rendons compte que pour des locations Airbnb, nous trouvons tous types de biens, pour tous les prix, dans toutes les zones. Nous expliquons ce phénomène par le fait que, pour un prix d’une nuitée équivalent, les bien proposé dans une zone hors centre-ville sera toujours de meilleures qualités qu’un biens au centre-ville d’un point de vue qualitatif (commodités, surface disponible, nombre de lit, de salle de bain etc).

Bien que les biens Airbnb ne semblent pas avoir de liens directs avec le prix du marché locatif, nous savons que la localisation du bien affect de façon significative le prix du bien mit à disposition. Enfin, nous pouvons dire que si le client souhaite louer un bien, non pas selon son emplacement, mais en maximisant la qualité du biens loués, il devra se diriger vers les zones avec des loyers les plus bas, c’est dans ces zones que les biens Airbnb avec un prix élevé sont très jolis avec des surfaces très agréable.

5 Traitement naturel du langage pour une étude textuel

Dans cette section, nous nous intéressons aux données textuelles que nous avons à disposition. Nous nous pencherons d’abord sur les noms des annonces Airbnb, qui est un critère très important pour un propriétaire qui souhaite mettre en location Airbnb son bien. Ensuite nous utiliserons la base de données contenant l’ensemble des commentaires et critique des clients sur les biens Airbnb qu’ils ont pu louer durant leur séjour. Nous ciblerons particulièrement les catégories extrême “Low-cost” et “luxe”.

Nous allons utiliser des méthodes et techniques de traitement du language naturelles pour pouvoir comprendre comment est choisi un titre d’annonce et ce qu’il peut nous apporter comme informations sur les catégories que l’on a préalablement créées. Nous nous pencherons enfin sur les commentaires des utilisateurs pour comprendre et analyser les liens entre commentaire et la note officielle des biens disponibles sur Airbnb. Pour ce faire nous utiliserons des techniques permettant d’extraire les sentiments énoncés par les clients dans leurs commentaires.

5.1 Etude sur le nom titre des annonces Airbnb

Concentrons-nous sur les titres des annonces Airbnb disponible dans notre base de données prioritaire, celle qui regroupe le listing complet des biens a disposition sur le site. Nous allons donc effectuer une transformation de nos données textuelles qui se trouve dans les titres des annonces airbnb, pour analyser ce qui rend leur particularité au loyer très inférieur et très supérieur.

En effectuant quelques statistiques descriptives, nous notons la présence, dans nos données textuels, de mots récurents. En effet, la pluspart des hotes utilisent à priori le meme champ lexical pour décrire leur bien. Nous pouvons ainsi observer le top des mots les plus utilisés par nos hotes et ce particulierement pour les catégories de bien Low-cost et Luxieux.

Comme énoncé plus haut, nous remarquons qu’effectivement, les mots les plus utilisés sont pour la plupart, les mêmes que ce soit concernant des biens de luxe ou des biens low-cost. Nous ne voyons cependant que les mots utiliser pour les biens de luxe caractérisent bien des biens luxueux, nous y trouvons des mots tels que jardin, piscine, parking, …. Pour les biens dit low-cost, nous retrouvons des mots tels que chambre, studio, privée, qui caractérise effectivement des biens de qualité bien moins importante, avec un prix evidement plus bas.

Nous representons aussi les bigrams de mots les plus fréquents a l’interieur des titres des annonces Airbnb.

##      word1    word2   n            both
## 1       de bordeaux 876     de bordeaux
## 2   centre    ville 406    centre ville
## 3 bordeaux   centre 305 bordeaux centre
## 4     avec   jardin 256     avec jardin
## 5     avec  piscine 236    avec piscine
## 6  chambre   privée 225  chambre privée

Les bigrams de mots les plus reprensenté, sans surprise, parlent des biens Airbnb se trouvent en centre ville. Cette obeservation est dû du fait qu’il y a en porportions une grande quantitées de biens en ville. Notons de plus que les critères “avec piscine”, “avecjardin”, sont souvent representé car ce sont des atouts clef pour promouvoir son biens, lorsqu’’il dispose de ces atouts. Chose ainsi faite nous allons représenter un nuage de mots caractéristiques propres aux catégories des logements Lowcost et Luxe.

Nous notifions maison, piscine, bordeaux, villa, loft, jardin, terrasse comme caractéristique des biens à tendance luxieuse. On ne peut s’attendre à mieux car ce sont clairement les différents atouts qu’un logement peut avoir en plus valus comparé à la moyenne. Pour les logements Lowcost comme nous le montre le nuage de points ci-dessous les mots apparaissant sa chambre, studio, cosy, petit, centre. Plus le logement est petit plus il en faut des adjectifs convaincants pour appâter les loueurs en plus de la minimisation du prix de location.

De la même façon, pour le bien dit low-cost, on retrouve des mots tels que “chambre”, “bordeaux”, “appartement”, “petit”, “studio”. Ce sont des mots caractéristiques de biens avec des prix de nuiter plus faible. Les atouts de ces biens sont avancé avec des mots plus sobres et plus généralistes tels que les mots “calmes”, “agréable”, “causy”, etc.

5.2 Etudes et analyses des sentiments des commentaires des clients

Dans cette partie notre objectif est d’analyser les sentiments des commentaires des clients sur les locations airbnb dans le but d’y pouvoir identifier les logements avec les meilleurs différentes émotions, i.e. positive, surprise…Pour ce faire nous utilisons des méthodes de traitement du language naturelles avec notamment de la lemmatisation et tokenisation des différents commentaires font sur les biens Airbn.

Deux libraries de lexique seront utilisées, il s’agit des lexiques “bing” et de “nrc”.

L’analyse des différentes émotions recensées à travers les commentaires des clients des locations airbnb se traduit par les deux graphes ci-dessous :

Ce graphe nous permet de comprendre le message ressenti par l’auteur sur les biens Airbnb considéré. Nous nous rendons compte que dans la grande majorité des cas, les commentaires sont à tendance positive. Pour comprendre à quoi peut correspondre les critères positifs et négatifs, nous proposons une représentation en nuages de mots pour ces deux catégories. Nous retrouvons donc dedans les mots qui caractérisent les commentaires négatif et positif.

Pour aller un peu plus loin, nous nous sommes aidé de base de données déjà existant pour détailler au mieux le sentiment majoritaire d’un commentaire. Nous n’avons alors plus seulement que deux sentiments positif et négatif, mais un total de 10 sentiments précis nous permettant de détailler au mieux le message implicit d’un commentaire sur le site.

Nous notons que de manière générale les commentaires sont positifs, cela n’est pas étonnant sachant la popularité et l’essor de cette entreprise au cours de ces dernières années.Cependant en utilisant un lexique avec des émotions plus diversifiées nous pouvons apercevoir qu’en addition au commentaire positif( qui prédomine toujours) nous pouvons y discerner d’autres émotions comme la joie, la confiance, la surprise et l’anticipation. Nous allons donc essayer de recenser suivant ses différentes émotions prédominantes ou non le top 10 des logements.

Score Titre de l’annonce Prix
28.0 Experience a beautiful Bordeaux experience in the heart of Bacalan 75
26.0 Bordeaux, idéal famille ! 50
25.0 Belle chambre cosy indépendante à Blanquefort 30
21.0 Maison 6 personnes/piscine collective 100
18.0 suite parentale , 2 chambres 90
18.0 Chartreuse - 75m² av terrasse, ascenseur & parking 182
17.0 Bordeaux centre spacieux T2 49 m2 avec balcon 50
17.0 STUDIO d’architecte : GRAND THEATRE 30
17.0 Maison aux portes de Bordeaux avec piscine 270
16.5 Bordeaux - Appartement calme à vue dégagée 45

5.3 Modélisation du review_score avec les commentaires des clients

Dans cette section, notre objectif est de voir si les commentaires font par les utilisateurs reflète d’une bonne façon la note associée aux biens considérés. Pour ce faire, nous utiliserons d’une part, une régression logistique puis dautre part une régression linéaire. Dans le cadre de notre régression logistique, nous avons dû créer une nouvelle variable catégorielle de la variable Review, comportant les catégories “Médiocre”, “Moyen”, “Haute”, “Excellent”. Ces quartes catégories synthétisent la note des clients qui varie entre 0 et 100. Nous notons qu’en grande majorité, les notes sont plutôt bonnes avec une distribution assez inégale.

Pour résoudre les problèmes d’environnement présent sur le logiciel R, cette section a été effectué via Python. Afin de traiter au mieux les commentaires a disposition, nous avons effectué une lemmatisation, tokenisation, et nous utilisons la vectorisation TF-IDF pour transformer nos commentaires en sparse matrix.

Une fois ceci fait, nous avons, après avoir effectué la régression logistique, des résultats très satisfaisants avec un taux de bonne classification proche de 82%. Pour la régression linéaire, nous obtenons une valeur de l’erreur quadratique moyenne de 1,99.Notre second objectif est maintenant de voir si l’ajout des sentiments permet d’améliorer nos scores déjà corrects.

6 Conclusion

En conclusion, nous avons vu, à travers ce travail sur les données Airbnb, la façon dont nous avons pu croiser différentes bases de données pour en tirer des informations pertinentes telles que la constitution du prix d’une nuitée. Nous avons par exemple vu l’importance de la localisation, et bien evidement de la qualité du bien considéré.
L’ensemble des statistiques descriptives nous ont permis de comprendre comment sont répartie les biens Airbnb, avec une présence prépondérante au coeur de la ville Bordelaise.

Ce travail nous a également permis de comprendre la façon dont le marché locatif et le marché de location Airbnb sont lié, nous nous sommes rendu compte que tout types de bien était disponible dans toutes les zones, et que pour le même prix d’une nuit, on maximise la qualité de son séjour en recherchant des biens dans les zones où le prix au mètre carré est faible.

Enfin, un gros travail de traitement de language naturel a été effectué, d’abord sur les titres des annonces Airbnb, puis sur les commentaires de la clientèle qui note leurs séjours. L’analyse textuelle des titres des annonces nous a permis de comprendre la façon dont les biens de grands standings pouvait attirer les clients, et de la même façon, nous avons vu la façon dont sont caractérisés les biens avec un standing moindre. L’intégralité du travail effectué sur les commentaires clients a été effectué dans le but de comprendre comment la note Airbnb du bien était représenté, nous avons donc voulu voir s’il était possible de prédire la note d’un point à partir des commentaire. Les résultats ont été très satisfaisants.

En matière d’ouverture, nous aurions souhaité pouvoir compléter cette analyse textuelle en y ajoutant de nombreuses variables à notre modèle tels que les individuels des clients concernant les catégories particulières de gage de qualité commùe l’accueil, la propreté ou encore la communication entre propriétaire et locataire.